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摘要 : [目的 /意义 ] 针 对 专利 文本 主题 建 模 中 领域 停 用 词 自动 选取 尚未 有 充分 研究 的 问题 ,提出 一 种 新 的 
领域 停 用 词 自动 选取 方法 ,用 于 专利 文本 主题 模型 分 析 , 以 提高 专利 主题 模型 的 区 分 度 与 建 模 质量 。[ 方 法 /过 
程 ] 领域 停 用 词 本 质 上 是 信息 比较 少 ,在 不 同类 别 专 利文 本 中 区 分 度 低 的 词 。 因 此 ,引入 辅助 专利 文本 集 , 使 用 
类 别 粒 衡量 词 的 分 布 情况 ,然后 依据 词 的 类 别 粒 进行 排序 ,选取 类 别 业 最 大 的 若干 词 作 为 领域 停 用 词 。[ 结果 / 
结论 ] 实验 通过 专利 文本 数据 ,验证 了 该 方法 的 可 行 性 与 有 效 性 ,能 够 有 效 地 提高 专利 主题 模型 的 区 分 度 。 
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一 有 效 的 专利 文本 分 析 能 够 判断 领域 技术 热点 ` 识 
吻 领 域 核心 技术 ,预测 领域 技术 发 展 趋势 ,帮助 研发 人 
谢 肉 中 获得 启发 与 借鉴 ,从 而 缩短 创新 设计 时 间 .节约 
创 潮 设计 经 费 。 因 此 ,专利 文本 分 析 具 有 重要 的 研究 
意 测 。 传 统 的 专利 文本 分 析 方法 通常 使 用 专利 文本 中 
的 局 语 直接 作为 主题 或 概念 ,进而 利用 主题 或 概念 建 
模 y 分 析 领 域 技术 状况 ，“”。 然 而 ,专利 作为 一 种 被 保 
护 鸭 文献 ,专利 申请 者 为 了 扩大 所 申请 专利 的 保护 范 
围 和 提高 专利 授权 的 可 能 性 ,往往 会 使 用 一 些 模糊 或 
者 抽象 的 表达 。 因 此 ,从 专利 文本 所 表达 的 潜在 语义 
层面 理解 专利 文本 ,才能 得 到 更 好 的 专利 文本 分 析 效 
果 。 不 同 于 传统 的 文本 分 析 方法 ,主题 模型 通过 分 析 
文本 集合 中 词语 共 现 的 概率 分 布 ,挖掘 文本 隐 含 的 语 
义 信息 ,被 广泛 应 用 于 文本 分 析 之 中 ,并 取得 较 好 的 效 
果 。 随 着 主题 模型 的 逐步 完善 ,研究 者 开始 尝试 将 主 
题 模 型 应 用 于 专利 文本 分 析 之 中 ,以 揭示 专利 文本 深 
BRAR 。 

虽然 主题 模型 可 有 效 地 挖掘 专 利文 本 中 隐 含 的 语 
义 信息 ,取得 了 较 好 的 分 析 效 果 , 然 而 ,在 主题 模型 学 
习 过 程 中 ,学 习 得 到 的 主题 分 布 易 向 高 频 词 倾斜 。 这 
些 词 通常 是 一 些 出 现 频率 高 但 无 实际 意义 的 停 用 词 ， 


不 能 很 好 地 刻画 主题 特征 ,如 中 文 的 “的 “是 ” ,英文 
的 “of"“the” 等 词 。 在 生成 主题 模型 的 迭代 过 程 中 ,这 
些 词 频繁 出 现在 多 个 主题 中 ,导致 主题 分 布 播 摆 不 停 ， 
两 个 主题 分 布 相似 性 提高 ,不 能 明显 区 别 各 个 主题 , 收 
敛 速度 变 慢 ,对 主题 模型 结果 产生 负面 的 影响 。 为 
了 避免 这 种 情况 ,通常 在 构建 专利 文本 主题 模型 之 前 
借助 停 用 词 表 ,预先 删除 专利 文本 中 的 停 用 词 。 但 是 ， 
这 种 方法 并 不 能 完全 过 滤 掉 表意 性 较 差 的 词语 。 实 际 
上 , 停 用 词 不 仅 包 括 通用 停 用 词 ,还 包括 领域 停 用 词 。 
前 者 是 标准 的 共同 领域 停 用 词 ; 后 者 为 在 特定 领域 中 
具有 很 少 区 分 度 的 词 。 以 专利 文本 分 析 为 例 ,专利 文 
本 中 常 出 现 “ 方 法 ”“ 包 含 "“ 发 明 ” 等 词 ,这 些 词 包含 信 
息 量 少 ,区 分 度 低 ,不 能 很 好 地 表示 专利 文本 的 语义 信 
息 。 一 些 专利 文本 主题 模型 研究 采用 手工 方式 或 者 词 
频 和 文本 频次 等 相关 方法 选取 领域 停 用 词 ”” 。 然 
而 ,基于 词 频 或 文本 频次 选取 的 领域 停 用 词 还 可 能 包 
括 一 些 有 用 的 领域 专利 术语 ,如 ,在 “3D 打印 ”专利 文 
本 主题 分 析 中 , 词 “打印 机 ”大 量 出 现在 相关 文本 集 
中 ,具有 较 高 的 词 频 和 文本 频次 ,但 其 具有 一 定 的 研究 
价值 ,不 能 作为 领域 停 用 词 简单 删除 。 

中 文 专利 文本 中 领域 停 用 词 表 具 有 自身 的 特点 。 
领域 通用 词 通常 具有 主题 无 关 性 ,在 多 个 类 别 专利 中 
均匀 重复 出 现 ,如 ,方法 “包含 ”发明 ”等 词 在 化 学 、 
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机 械 、 物 理 . 电 学 等 不 同 专利 类 别 中 均 大 量 重复 出 现 。 
相反 ,包含 核心 领域 知识 的 专利 术语 则 仅 在 某 个 类 别 
中 频 索 出 现 ,而 在 其 他 类 别 中 出 现 频次 较 低 ,甚至 不 出 
现 。 因 此 ,本 文 引入 包含 多 类 别 专利 文献 的 辅助 专利 
文本 集 , 提 出 类 别 炉 的 概念 ,衡量 词 的 分 布 ,以 自动 选 
取 领 域 停 用 词 ,从 而 提高 专利 文本 主题 模型 的 区 分 度 
与 建 模 质 量 。 

本 文 结构 如 下 :第 2 部 分 介绍 相关 研究 工作 ;第 3 
部 分 介绍 用 于 专利 文本 分 析 的 主题 模型 ;第 4 部 分 为 
本 文 提出 的 领域 停 用 词 自动 选取 方法 ;第 5 部 分 为 相 
关 实 验 及 实验 结果 分 析 ; 最 后 为 本 文 结论 。 


2 相关 研究 


一 停 用 词 被 认为 是 无 实际 语义 信息 .无 区 分 度 的 词 。 
它们 构成 了 文本 数据 的 大 部 分 ,在 文本 分 析 过 程 中 存 
在 很 大 的 干扰 性 ,不 仅 携带 较 少 的 信息 ,还 会 对 其 他 词 
语 站 生 一 定 的 抑制 作用 ,很 大 程度 上 影响 文本 处 理 的 
浆 纶 和 准确 性 。 去 除 停 用 词 被 广泛 使 用 于 各 种 文本 分 
Bi AUR. WM, W. Frakes 等 ”在 信息 检索 的 研究 中 认 
站 生动 索 引 阶段 提早 考虑 消除 出 现 频率 过 高 的 词语 可 
/志高 检索 速度 ,减少 检索 存储 空间 并 且 不 会 降低 检 
区 果 的 准确 性 。C. Silver 验证 了 基于 支持 向 量 机 
的 这 本 分 类 器 在 去 除 停 用 词 之 后 ,准确 率 有 所 提高 。 
BET 选取 百度 停 用 词 表 、 哈 尔 滨 工 业 大 学 停 用 词 表 
[下 四 川 大 学 机 器 智能 实验 室 停 用 词 表 ,对 不 同 聚 类 
结 典 进行 效果 评估 。 研 究 结果 表明 停 用 词 表 对 于 文本 
到 类 准确 度 有 很 大 的 影响 ,构建 或 选取 适宜 的 停 用 词 
表 酉 为 重要 。 总 的 来 说 , 停 用 词 的 选取 对 文本 分 析 结 
果 异 常 重要 ,去 除 停 用 词 是 文本 预 处 理 中 十 分 重要 的 
步 又 。 

停 用 词 可 分 为 通用 停 用 词 和 领域 停 用 词 两 大 类 。 
领域 停 用 词 因 领 域 与 数据 集 不 同 而 不 同 。 例 如 ,词语 
“学 习 " 在 教育 领域 可 能 是 一 个 领域 停 用 词 , 但 是 在 计 
算 机 科学 领域 可 能 不 是 一 个 领域 停 用 词 。 

领域 售 用 词 已 经 被 应 用 于 人 力 资源 管理 ”生物 
信息 .基因 本 体 "” ,信息 检 索 ”! 和 电子 商务 "等 领域 
之 中 。 通 常 ,选取 领域 停 用 词 通 过 手工 完成 ,而 自动 先 
取 领 域 停 用 词 可 根据 实际 处 理 文本 集 的 不 同 而 自动 构 
造 合 适 的 领域 停 用 词 ,灵活 性 强 ,更 具 潜力 。 但 是 如 何 
设计 高 效 准 确 的 自动 选取 领域 停 用 词 算法 也 是 具有 挑 
成 性 的 任务 。 通 常 采 用 词 频 或 文本 频次 进行 领域 停 用 
词 的 自动 选取 。 基 于 词 频 的 领域 停 用 词 自动 选取 理论 
依据 是 若 一 个 词 在 文本 集中 大 量 出 现 , 则 认为 该 词 是 


停 用 词 。 文 本 频次 则 计算 文本 集中 出 现 某 个 词 的 文本 
数 来 表示 。 其 理论 假设 是 当 一 个 词 在 大 量 文本 中 出 现 
时 ,该 词 不 具有 较 强 的 文本 区 分 能 力 ,可 被 认为 是 领域 
停 用 词 。 

此 外 ,一 些 研究 者 尝试 采取 其 他 一 些 方 法 自动 选 
取 领 域 停 用 词 。 例 如 ,T，W.，Lo 等 中 针对 信息 检索 ， 
提出 一 种 基于 词语 的 随机 抽样 抽取 方法 ,并 提出 最 有 
效 的 停 用 词 表 是 经 典 的 停 用 词 表 和 新 方法 自动 抽取 的 
停 用 词 表 的 融合 。L. Hao 等 "提出 2- 统计 方法 , 产 
生 家 具 种 类 查询 的 领域 停 用 词 ,以 加 速 电 子 商务 网 站 
信息 检索 过 程 。M. P. Sinka ği D. W. Come" 提出 
单词 灶 ,使 用 聚 类 和 随机 检索 算法 优化 ,自动 选取 领域 
(Hio M. Jungiewicz 和 M. Lopuszynski ^^! 基于 观 
察 :每 个 文本 的 停 用 词 的 出 现 次 数 的 分 布 通常 遵循 一 
个 典型 的 随机 变量 模型 (如 , 泊 松 分 布 ) ,开发 了 一 个 
非 监督 方法 自动 产生 领域 停 用 词 。M.，Makrehchi 和 
M. S. Kamel ”假设 停 用 词 具有 最 小 信息 和 预测 能 
是 出 后 向 过 滤 级 别 性 能 和 数据 稀 玻 索引 的 概念 ,从 一 
个 标记 集合 中 自动 产生 领域 停 用 词 , 用 于 文本 分 类 。 
顾 益 军 等 ”分 别 计算 词 条 在 语料库 中 各 个 句子 内 发 
生 的 概率 和 包含 该 词 的 句子 在 语料库 中 的 概率 ,在 词 
基础 上 计算 联合 炉 , 依 据 联 合 炉 选 取 领 域 停 用 词 。 巩 
政和 关 高 娃 ”采用 联合 粹 算法 初步 确定 蒙古 文 停 用 
词 ,接着 从 初步 确定 的 蒙古 文 停 用 词 中 去 掉 莹 古文 实 
体 名 词 及 同形 异 义 词 ,再 通过 对 英文 停 用 词 和 蒙古 文 
停 用 词 的 词性 比较 ,确定 蒙古 文 停 用 词 表 。 珠 杰 和 李 
天 瑞 ”结合 现 有 停 用 词 的 处 理 技术 ,研究 基于 统计 的 
藏 文 停 用 词 选 取 方 法 ,通过 实验 分 析 了 词 项 频率 文档 
频率 MET E RS E FRE EO BUR DU ,提出 了 藏 文 叙 
词 .特殊 动词 和 自动 处 理 方法 相 结合 的 藏 文 停 用 词 选 
取 方 法 。 专 利 中 领域 停 用 词 有 其 自身 特点 ,这 些 方法 
并 不 适用 于 专利 文本 处理。 


3 LDA 主题 模型 


LDA( Latent Dirichlet Allocation ) 模型 是 一 种 常 
的 主题 模型 ,由 于 其 参数 简单 ,不 产生 过 拟 合 现象 ， 
逐渐 成 为 主题 模型 的 研究 热点 。 本 文 使 用 LDA 模型 
对 专利 文本 进行 建 模 。LDA 是 一 个 三 层 贝 叶 斯 概率 模 
型 ,由 词 .主题 和 文本 三 层 构成 。 该 模型 假设 每 个 文本 
包含 若干 隐 含 主题 ,每 个 主题 包含 特定 的 词 。 文 本 和 
词 间 的 关系 通过 隐 含 主题 体现 。 隐 含 主题 之 间 是 相互 
独立 的 ,这 些 主题 被 文本 集中 所 有 文本 所 共享 ,而 每 个 
文本 有 一 个 特定 的 主题 分 布 。 模 型 通常 采用 Gibbs 采 
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样 推理 方法 估计 主题 的 后 验 分 布 ,计算 如 公式 (1) ^ 
所 示 : 
E E ni-y +B 
p(z; =klz",w,œ,ß) x ni +B x 
nta 
ni? ., + Ka (1) 
其 中 ,z 表示 文本 d 中 词 w 的 主题 变量 ; -六 表示 
排除 文本 d, 中 的 词 ws; 表示 文档 d; 中 的 词 w, 分 配 
给 主题 的 次 数 ;(， ) 表 示 对 应 维度 (词语 .文本 、 主 
题 ) 所 有 次 数 之 和 ,pB 表示 词 的 Dirichlet 先 验 分 布 ,a R 
示 主 题 的 Dirichlet 先 验 分 布 ,K 表示 主题 数 ,V 表示 集 
合 中 总 的 词语 数 。 一 旦 获得 每 个 文本 中 每 个 词 的 主 
题 ,就 可 以 得 到 LDA 模型 中 9 和 og 的 后 验 估计 值 , 计 
算 如 公式 (2) 和 (3) 所 示 : 


Hog E 


NE 2 

s nij) * Ka (2) 
"m 

NUM (3) 


ki T 
nt V8 
让 中 ,和 表示 文本 d, 包含 主题 的 概率 ;gj 表 示 主 
S PIIG w, 的 概率 。 


领域 停 用 词 自动 选取 
C 
QJ 相 较 于 专利 术语 ,专利 中 的 领域 停 用 词 通 常 具有 
类 曾 无 关 性 ,在 各 种 类 别 中 反复 均匀 出 现 。 相 反 , 包 含 
核 作 领域 知识 的 专利 术语 则 仅 在 某 个 类 别 中 频繁 出 


c 


在 其 他 类 别 中 出 现 频次 较 低 ,甚至 不 出 现 。 
此 ;条文 引入 包含 多 个 类 别 的 辅助 专利 文本 集 , 以 识别 
专 剩 文本 中 的 领域 停 用 词 。 专 利 中 的 领域 停 用 词 在 各 
类 别 间 以 及 某 一 类 别 内 通常 均匀 出 现 。 而 词 在 类 别 间 
IZ AL Ay f Té DU RT ELSE FM OR fg Ets fe REA: 
信息 论 中 重要 的 概念 ,用 来 度量 信息 的 不 确定 程度 。 
词 在 文本 中 出 现 具有 一 定 的 不 确定 性 , 当 词 在 文本 间 
分 布 不 均匀 时 , 词 提供 给 文本 集 的 信息 量 越 大 ,说 明 它 
区 分 文本 的 能 力 越 强 ,这 种 不 均匀 性 可 以 用 词 的 信息 
炉 来 度量 ,衡量 词 在 文本 集中 分 布 情况 。 

具体 地 ,本文 引 入 包含 o , c,,…,c 类 别 的 辅助 专 
利文 本 集 , 每 个 类 别 包含 桔 干 个 相关 专利 文本 ,将 词 
wi 在 不 同 专 利 类 别 间 的 分 布 称 为 类 别 间 信 息 炉 (En- 
tropy between Categories, EBC) ,计算 公式 如 下 : 


m df( w, ,c,) df( w, ,c,) 
EBC(w,) = - > df( w,) * df( w,) a 


其 中 ,EBC(w,) 表 示 词 w, RO 2 IRI ft ET s df Co, , 


c) GR] w, 在 类 别 。 中 的 文档 频次 ;df(w,) = S df 


lb 
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(1; ,c,) ,表示 词 w; 在 辅助 专利 文本 集中 的 文档 频次 。 
由 定义 可 知 , 当 词 只 出 现在 单个 类 别 的 文本 中 时 ,类 别 
[8] fei SAD; 当 词 在 所 有 类 别 中 均匀 分 布 时 ,类 别 间 
TE IR GS E CH 

类 似 地 ,本文 将 词 w 在 类 别 内 的 分 布 使 用 类 别 
Vi fci E (Entropy in Category, EIC) 衡量 ,其 计算 公式 
如 下 : 


Hose) Been) bees) O 
其 中 ,EIC(w,, c) RIR] w, 在 类 别 c, 内 的 类 别 内 
HAS sif Cw; d; ) 表示 词 w 在 领域 c, 的 文档 d; 中 的 词 
频 ;Y(wis6) = X fwd) ,为 ww TERI e, 中 的 总 词 
频 ,1c,1 表 示 类 别 e, 中 包含 的 文档 数 。 由 定义 可 知 , 词 
在 类 别 内 分 布 越 均 匀 , 2 00] P3 fi AS LEUR s e 5, dn] 
在 类 别 内 分 布 越 不 均匀 , 2L PAR fei ERER o 
Zi 2E RI fei Ede] EBC TUS] P4 fei E] EIC , 形 
RIK xp EC ,用 于 衡量 词 在 各 个 类 别 的 分 布 情 
况 ,计算 公式 如 下 : 
E(w;) 2 EBC(w,) x > EIC(u, ,c,) (6) 
Hi xe X up, 25 gii E RK , de B] in] TE ee LRL] 
领域 间 分 布 越 均匀 , 越 可 能 是 专利 文本 中 的 领域 停 用 
词 。 


5.1 数据 集 与 实验 设置 

为 了 验证 提出 模型 的 有 效 性 ,本 部 分 分 别 选取 3D 
打印 与 智能 语音 相关 专利 文本 进行 实验 。3D 打印 是 
一 项 新 兴 制 造 技术 , 因 其 在 某 种 程度 上 颠覆 了 传统 制 
造 业 的 生产 方式 , 带 来 制造 业 数字 化 和 智能 化 的 革命 ， 
受到 各 国学 术 界 和 产业 界 的 广泛 关注 ,近年 来 取得 快 
速 发 展 。 智 能 语音 是 人 机 交互 模式 的 新 选择 。 借 助 于 
移动 互联 网 、 机 器 学 习 领 域 中 深度 学 习 技 术 以 及 大 数 
据 语 料 库 的 积累 ,智能 语音 技术 的 实用 化 发 展 突 飞 猛 
进 ,在 电信 ,金融 \ 汽 车 电子 家电、 教育 .玩具 、 智 能 
机 移动 互联 网 等 领域 已 得 到 广泛 应 用 。 实 验 基于 中 
到 国家 知识 产权 局 专利 数据 库 , 分 别 以 “3D 打印 or 快 
速成 型 or 增 材 制 造 or 三 维 打印 or 增 量 制造 or 添加 
制造 or 智能 制造 or 数字 化 制造 ”和 “智能 语音 or 语 
音 识别 or 语音 合成 or 自然 语言 理解 or 语音 交互 or 
语音 技术 or 语音 控制 "作为 检索 式 ,检索 2013 年 至 
2017 年 相关 专利 文献 (检索 日 期 为 2017 年 8 月 1 日 )。 
通过 数据 抓 取 清洗 .去 重 后 ,最 终 分 别 将 7 790 条 3D 
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打印 5 272 条 智能 语音 中 国 发 明 公开 专利 标题 和 摘要 
作为 待 分 析 的 目标 专利 文本 集 。 

此 外 ,实验 根据 专利 IPC 分 类 号 ,分 别 从 A -fH 分 
类 号 中 随机 抽取 2 000 条 中 国 发 明 公 开 专 利文 献 标题 
和 摘要 作为 辅助 专利 文本 集 ,数据 集 统计 信息 如 表 1 
所 示 : 


表 1 数据 集 基 本 信息 


# 去 重 后 
数据 集 类 型 领域 i 
目标 专利 文本 集 3D 打印 7 790 
智能 语音 527 
辅助 专利 文本 集 A 人 类 生活 必需 ( 农 , 轻 \ 医 ) 2 000 
B 作业 ;运输 2 000 
C 化 学 ;冶金 2 000 
D 纺织 ;造纸 2 000 
E 固定 建筑 物 ( 建筑 .采矿 ) 2 000 
F 机 械 工程 ;照明 ;加 热 ;武器 ;爆破 2 000 
G 物理 2 000 
H 电学 2 000 


实验 首先 对 目标 专利 文本 集合 采用 中 国 科学 院 计 
算 碑 究 所 的 ICTCLAS 分 词 系统 进行 分 词 ,采用 哈尔滨 

大 学 停 用 词 列表 对 专利 文本 移 除 通用 停 用 词 。 在 
网 建 模 过 程 中 ,参数 估计 采用 Gibbs 采样 算法 。 主 
题 嵌 型 设置 =50/K B - 0. 01, Gibbs 采样 先 代 次 数 参 
22 000 ,保存 迭代 参数 为 1 000。 主 题 数 K 的 选取 
避 遂 计算 基本 专利 主题 模型 的 困惑 度 选取 最 优 值 , 采 
用 入 折 交 叉 验 证 。 根 据 计算 ,实验 设 定 3D 打印 数据 集 
的 主题 数 K= 15 ,智能 打印 数据 集 的 主题 数 K =10。 
5.0) 评估 标准 

实验 借助 平均 KL 距离 指标 定量 描述 主题 的 区 分 
度 。 平 均 KL 距离 常用 来 衡量 两 个 概率 分 布 的 距离 。 
平均 KL 距离 avg_KL 的 定义 如 下 : 
Si KL 9g, lo9,) 

x: 


avg KL- (7) 


oy i, 
其 中 KLCo, | g) = X ais log 9, 由 于 KL 距离 


Jp 


是 不 对 称 的 ,但 是 wm, 和 w 相似 性 度量 是 对 称 的 , 故 将 
公式 进行 调整 ,采用 对 称 的 Jensen -Shannon 距离 度量 2 
个 主题 距离 ,具体 计算 公式 如 : 


KL(o;,9;) + KL( 9;,p;) 
2 


此 时 ,平均 KL 距离 衡量 的 是 包含 所 有 词 的 主题 
之 间 的 距离 ,由 于 移 除 不 同 的 停 用 词 之 后 形成 的 专利 
文本 集中 包含 的 单词 数 不 同 ,为 了 有 效 比 较 , 形 成 新 平 


JS(9i,9;) = (8) 


均 KL 距离 指标 avg_KL 衡量 主题 间 单 词 的 平均 距离 ， 
计算 公式 如 下 : 

avg KL' = lb(avg KL/V) (9) 
其 中 了 为 专利 文本 集中 包含 的 单词 数 。 此 时 ,avg 
_K7 值 越 大 ,表明 主题 与 主题 之 间 的 距离 越 远 ,主题 的 
可 区 分 性 越 高 。 
5.3 实验 结果 
5.3.1 领域 停 用 词 选 取 冰 值 确定 ”实验 使 用 ICT- 
CLAS 分 词 系 统 对 辅助 专利 文本 集 进 行 分 词 ,采用 哈 尔 
滨 工 业 大 学 停 用 词 列表 移 除 通用 停 用 词 ,使 用 第 4 部 
4 i th I2 ir ETE IBUZS UA. X2 IRA 
值 最 大 的 前 20 个 词 。 由 表 2 n] AL, 2E EL Ee de P 3C 
些 词 通常 在 各 专利 文献 类 别 中 均 会 出 现 , 与 具体 专利 
主题 分 析 中 的 专利 术语 无 关 , 包 含 语义 信息 较 少 ,可 以 
作为 领域 停 用 词 。 

R2 SERA BUR 20 个 词 


序号 词 2A 序号 词 2e 
1 种 257. 12 11 后 234. 97 
2 发 明 256.83 12 提供 231.79 
3 包括 256. 83 13 内 229. 87 
4 中 254. 55 14 提高 228. 42 
5 公开 243.32 15 应 226.90 
6 240.73 16 技术 225.42 
7 下 239. 96 17 简单 224.81 
8 述 239.91 18 采 224. 60 
9 方法 235. 17 19 F 223.30 
10 涉及 234.98 20 之 间 223. 06 


TE SUUS HI T: xo EC B5] 25 n] Ji Bd [Ly 3] A 7. 120, 

130,140,150,160 和 170, KEII KR F 0 Ad E] 
值 的 词 作为 领域 停 用 词 ,在 目标 专利 文本 集中 去 除 领 
域 停 用 词 ,建立 专利 文本 主题 模型 ,实验 结果 如 图 1 所 
示 。 由 图 1 可 见 , 当 阐 值 为 150 时 ,3D 打印 数据 集 和 
智能 打印 数据 集中 avg_KL' 值 最 大 ,专利 文本 主题 模型 
的 区 分 度 最 大 。 因 此 ,本 文 在 后 续 实验 中 选取 类 别 炉 
BEX 150, 
5.3.2 不 同 领域 停 用 词 方法 比较 ”为 比较 不 同 领域 
停 用 词 选 取 方 法 专利 文本 主题 建 模 效 果 , 实 验 分 别 依 
据 以 下 方法 自动 选取 领域 停 用 词 : OTF :依据 词 在 目标 
专利 文本 集中 出 现 的 词 频 , 选 取 词 频 最 高 的 若干 词 作 
为 领域 停 用 词 ;OODF :依据 词 在 目标 专利 文本 集中 的 
文本 频次 ,选取 文本 频次 最 高 的 若干 词 作为 领域 停 用 
词 ;GEC :依据 本 文 第 4 部 分 提出 的 类 别 粹 选取 领域 
停 用 词 。 

依据 以 上 的 三 种 方法 选取 领域 停 用 词 ,生成 不 同 
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的 专利 文本 集 ,分 别 学 习 专 利 主题 模型 ,对 应 的 专利 主 
题 模型 分 别称 为 Tf-LDA、DF-LDA 和 EC-LDA。 为 了 
便于 比较 ,实验 将 没有 移 除 任何 停 用 词 (包括 通用 停 用 
记 9 和 和 仅仅 移 除 通用 停 用 词 的 主题 模型 作为 基本 模型 
ur 比较 ,分 别称 为 LDA 和 Gen-LDA , 

人 由 表 3 可 见 ,首先 ,在 3D 打印 数据 集 和 知 ?能 打印 
中 ,Gen_LDA 模型 的 平均 KL 距离 均 大 于 LDA, 
iesu eil RC 题 模型 建 模 时 ,利用 通用 停 
Hs HEBR RI f E 够 改善 主题 模型 性 能 ,增加 


3t 型 的 区 分 度 。 其 次 ,在 两 个 专利 文本 集中 ,TF- 


LES 模 型 的 平均 KL 距离 大 于 标准 方法 LDA。 这 表明 
vna EX fe REGE PCR TAL, LG 
ALB LEE BR IR f E 够 改善 主题 模型 的 性 能 ,增加 主 
DÉ 型 的 区 分 度 。 再 次 ,DF-LDA 的 平均 KL 距离 大 于 
TEDA, DF-LDA 模型 依据 词 的 文本 频次 选取 领域 售 
用 沿 , 这 表明 考虑 文档 频次 方法 在 专利 文本 主题 建 模 
时 以 于 词 频 方法 ,通过 词语 所 在 文本 的 数目 反映 词语 
的 可 区 分 度 与 重要 性 ,从 而 产生 更 好 的 主题 建 模 效果 。 
总 体 而 言 ,DF-LDA 的 平均 距离 大 于 LDA 模型 , 略 小 于 
Gen-LDA 模型 。 可 能 的 解释 是 一 些 出 现在 若干 专利 文 


本 中 的 能够 反映 领域 内 容 的 词语 被 作为 领域 停 用 词 
表 3 主题 区 分 度 比较 

数据 集 方法 Avg K' 
3D 打印 LDA -11.15 
Gen_LDA -11.01 

TF-LDA -11.07 

DF-LDA -11.04 

EC-LDA -9.73 

智能 语音 LDA -10.66 
Gen_LDA -10.52 

TF-LDA -10.59 

DF-LDA -10.53 

EC-LDA -9.11 
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被 移 除 ,影响 了 专利 文本 主题 模型 的 区 分 度 。 最 后 ,本 
文 提 出 的 ECTDA 模型 的 平均 KL 距离 在 两 个 数据 集 
中 均 最 大 ,这 表明 引入 辅助 专利 文本 集 ,利用 类 别 炳 度 
量词 的 分 布 程度 ,能够 更 加 准确 地 度量 词语 的 分 布 , 表 
明 其 包含 的 信息 量 , 从 而 取得 最 佳 性 能 。 
表 4 列 出 3D 打印 数据 集 和 智能 语音 数据 集中 前 
20 个 最 高 TF 和 DF 的 词 ,其 中 领域 停 用 词 使 用 粗 体 表 
示 。TF 选取 目标 专利 集合 中 的 高 频 词 作为 领域 停 用 
词 DF 依据 词 在 目标 专利 集合 中 出 现 的 文本 频次 选取 
领域 停 用 词 。 由 表 4 可 见 ,在 两 个 数据 集中 ,除了 一 些 
言 息 量 很 少 的 词 ,如 “发 明 ” “包括” 等 之 外 ,也 包括 一 
些 * 打 印 ”“3D”“ 语 音 ”“ 模 块 ”等 领域 术语 ,简单 册 除 
这 些 词 ,影响 了 最 终 的 专利 主题 模型 的 建 模 效 果 。 
表 4 前 20 最 高 TF 和 DF ig 


] 3D 打印 智能 语音 
ibi TF DF TF DF 
1 打印 发 明 语音 语音 
2 3D 打印 模块 发 明 
3 发 明 3D 识别 包括 
4 述 包括 述 识别 
5 方法 方法 控制 方法 
6 包括 公开 方法 述 
7 材料 述 发 明 控制 
8 装置 中 E25! 系统 
9 打印 机 È 系统 公开 
10 E 材料 装置 装置 
11 制备 技术 包括 中 
12 三 维 打印 机 用 户 p 
13 中 制备 信号 GESS 
14 结构 装置 中 模块 
15 模型 结构 智能 p 
16 车 接 三 维 输入 接收 
17 T 成 型 连接 输入 
18 BR 固定 ES 技术 
19 成 型 制造 F 连接 
20 喷头 模型 单元 信号 


5.3.3 专利 主题 词 比较 最 后 ,为 了 得 到 直观 效果 ， 
实验 分 别 给 出 使 用 Gen-LDA 和 EC-LDA 模型 在 3D 打 
印 专利 文本 和 在 智能 语音 专利 文本 模型 每 个 主题 中 的 
前 5 个 词 。Gen-LDA 模型 为 通常 采用 的 方法 ,仅仅 使 
用 停 用 词 表 去 除 通 用 停 用 词 ,而 EC-LDA 则 在 去 除 通 
用 停 用 词 基 础 上 ,使 用 本 文 第 4 部 分 提出 的 自动 选取 
领域 停 用 词 的 方法 , 移 除 领域 停 用 词 。 结 果 如 表 5 .6 
所 示 ,领域 停 用 词 使 用 粗 体 表示 。 由 表 5、 表 6 可 见 , 在 
Gen-LDA 主题 模型 中 , 常 出 现 一 些 表 意 性 较 差 的 词 ,如 
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“发 明 ”“ 方 法 “技术”“ 包 括 ” 领 域 停 用 词 等 。 相 比 于 
传统 Gen-LDA 方法 ,EC-LDA 模型 根据 类 别 炉 ,自动 选 
取信 息 量 小 和 区 分 度 低 的 词 作为 领域 停 用 词 ,使 得 主 
题 一 致 性 较 强 ,更 易于 理解 。 
表 5 3D 打印 专利 文本 集中 主题 词 比较 
主题 Gen-LDA 
0 制备 方法 粉末 中 得 到 患者 制作 方法 牙齿 手术 个 性 化 
1 系统 控制 装置 模块 包括 混凝土 墙 体 建筑 框架 墙 体 
2 发 明 技术 3D 涉及 领域 IIR 螺纹 结构 支撑 ER 
3 表面 结构 上 形成 方法 粉末 陶瓷 金属 合金 制备 
4 ”机 构 上 装置 打印 机 平台 移动 驱动 组 件 电极 FA 
5 用 于 包括 发 明 多 个 部 分 模具 工艺 零件 一 体 化 Mi 
6 JE 支架 固化 制备 发 明 图 像 参数 计算 机 软件 扫描 
7 成 型 材料 过 程 提高 发 明 。 ”复合 材料 原料 强度 改 性 纳米 
$ 打印 3D 发 明 方 法 提高 膜 电极 基板 导电 芯片 
9 装置 喷头 打印 机 加 热 挤 出 ”传感器 温度 控制 器 信号 电路 
O =A A rk T 腔 孔 通道 壳 体 RE 
连接 固定 设置 结构 安装 巧克力 食品 蛋糕 原材料 色彩 
e 
e 


EC-LDA 


Ti 


制造 方法 加 工 激光 金属 树脂 光源 液态 胶 快速 成 型 
定位 设计 患者 制作 方法 发 明 进 料 喷嘴 耗材 螺杆 供 料 


材料 制备 重量 复合 材料 具有 支架 生物 修复 纤维 细胞 


表 6 智能 语音 专利 文本 中 主题 词 比较 
2f 
语音 识别 输入 用 于 发 明 数据 音频 识别 语音 生成 
1 系统 交互 智能 机 器 人 基于 发 明 RE 模型 合成 训练 解码 
DD uec BR RR 


模块 电路 无 线 传感器 通信 
DE 信号 连接 电路 述 发 明 计算 机 汉语 方案 输入 程序 
KU 控制 语音 指令 发 明 用 于 语音 装置 检测 判断 车载 


S 数据 中 方法 文本 音频 包括 信息 移动 服务 器 发 送 播放 
-语音 方法 特征 模型 进行 语音 信号 输入 输出 声音 


o 发 明 进行 检测 时 识别 方法 系统 交互 机 器 人 智能 平台 


8 信息 用 户 语音 方法 述 装置 安装 电子 开关 显示 屏 
9 述 装置 上 智能 包括 语音 指令 命令 智能 家 居 EPEA 


6 总 结 


针对 专利 文本 主题 建 模 中 领域 停 用 词 自动 选取 尚 
未 有 相关 研究 ,以 及 目前 其 他 文本 分 析 中 常见 领域 停 
用 词 自动 选取 可 能 存在 的 问题 ,本 文 根 据 专利 文献 的 
地 点 ,引入 辅助 专利 文本 集 , 提 出 类 别 稍 , 衔 量 词 的 分 
布 情况 ,以 自动 选取 领域 停 用 词 ,用 于 专利 文本 主题 模 
型 分 析 , 以 提高 专利 主题 模型 的 区 分 度 与 建 模 质量 
通过 实验 ,表明 相 比 于 传统 的 基于 词 频 和 文本 频次 的 
方法 ,使 用 本 文 提 出 的 类 别 粒 方 法 能 够 更 好 地 衡量 词 
的 分 布 特征 ,更 好 地 构建 专利 主题 模型 ,增加 专利 主题 
之 间 的 距离 ,增加 可 区 分 度 。 
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C Abstract: [ Purpose/ significance | Because the research that automatic selection of domain -specific stopwords in 
topie model of patent text is insufficient, this paper proposes a new method of automatic selection of domain -specific stop- 
words , for patent text topic model analysis, in order to improve the differentiation and modeling quality of the patent topic 
model. [ Method/process] In essence, domain-specific stopwords are less important words which contain relatively less 
information , such words are poorly differentiated in different kinds of patent. Therefore, this paper introduced the auxiliary 
multi-category patent text dataset and measured the distributions of words through the category entropy. Then, according to 
the category entropy of words. It chose some words that have the maximum category entropy as the domain-specific stop- 
words. [ Result/conclusion | Experimental results show the feasibility and validity of the method proposed in this paper, 
which can improve the differentiation and quality of topic model for patent text analysis. 

Keywords: patent text automatic selection 
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